24 research outputs found

    Data analysis applied to aquatic incidents using Machine Learning techniques

    Get PDF
    RESUMEN: El presente trabajo de Fin de Grado (TFG) trata sobre la realización, de principio a fin, de un proyecto de data science, acometiendo todas las fases que este tipo de proyectos llevan asociadas. El data science es un campo interdisciplinar que aglutina método científico, procesos y sistemas con el objetivo de extraer información útil de datos en sus diferentes formas. Para ello conjuga diferentes campos como la estadística, el machine learning y la analítica predictiva. Hoy en día es especialmente relevante no solo en el mundo de la empresa privada, sino también en el de la investigación, como podría ser la física. Gracias a que las herramientas y técnicas propias de este campo proponen formas alternativas de trabajar con los datos recopilados en los proyectos en los que se usen, pueden llegar a facilitar la resolución de los diferentes problemas que se aborden. En el caso concreto que nos ocupa, tendremos dos fuentes de información principales, a saber, datos meteorológicos, y datos relativos a incidentes acuáticos. El objetivo principal de este proyecto es aplicar la metodología y técnicas propias del data science con el fin de caracterizar los incidentes en base a los datos disponibles, con especial atención a los datos climáticos. En el proyecto se aplicarán diferentes técnicas estadísticas y se profundizará en la extracción del conocimiento mediante la aplicación de técnicas de machine learning.ABSTRACT: In this Final Degree’s Project we develop a full Data Science project from beginning to end, undertaking all the phases associated with this kind of project. Data Science is an interdisciplinary field that brings together scientific method, processes and systems with the aim of extracting useful information from data in its different forms, combining different fields such as statistics, machine learning, and predictive analytics. Today it is especially relevant not only in the private business field, but also in the research field, such as physics. Thanks to the fact that the tools and techniques of this field propose alternative ways of working with the data collected in the projects in which they are used, they can facilitate the resolution of the different problems that are addressed. In the specific case that concern us, we will have two main sources of information, namely, meteorological data, and data related to aquatic incidents. The main objective of this project will be to apply the methodology and techniques of Data Science in order to (extract useful information?) determine if there are weather patterns, correlations between the different variables, and we will perform machine learning models in order to make predictions. In the specific case at hand, we will have two main sources of information, namely, meteorological data, and data related to aquatic incidents. The main objective of this project is to apply the methodology and techniques of data science in order to characterize incidents based on the available data, with special attention to climate data. Different statistical techniques will be applied in the project and the extraction of knowledge will be deepened through the application of machine learning techniques.Grado en Físic

    Modelo para la aplicación de minería de datos académicos en las Universidades Peruanas

    Get PDF
    La presente investigación ha partido de dos situaciones problemáticas: la mala gestión del proceso de minería de datos y la definición detallada de los entregables de cada etapa del proceso. Además de la inexistencia de un modelo de aplicación de Minería de datos en el entorno académico en las universidades peruanas. Para desarrollar el Nuevo Modelo se revisaron metodologías robustas y modernas como: CRISP-DM, SEMMA, CATALYS, KDD y los aportes del investigador. Se hizo un análisis comparativo de las metodologías y se identificó que unos de os principales problemas en todas es la gestión en si del proyecto por ende se utilizó el PMBOOK para mejorar esta etapa. El nuevo modelo propuesto y aplicado consta de 2 subprocesos: Subproceso de Gestión de Proyecto, Subproceso de Aplicación de Minería de Datos. Así se logró la finalidad primordial que es Elaborar y aplicar el Modelo en una Institución Universitaria. Excelentes resultados fueron obtenidos, entre ellos: El desarrollo del Nuevo Modelo para la mejora de proceso de aplicación de minería de datos en entornos académicos y en la aplicación del mismo donde se observó la optimización considerable de los indicadores propuestos. Las conclusiones más importantes son: el nuevo modelo posibilitó la mejora en la gestión de proyectos de aplicación de minería de datos en entidades educativas universitarias, su aplicación permite obtener mejoras sustanciales al proceso, las técnicas estadísticas usadas durante las etapas fueron muy relevantes y significativas, y las TICs fueron herramientas relevantes que posibilitaron mejorar el proceso, para convertirlo en uno más eficiente y asegurar así que las tareas generen valor para los usuarios

    Exploración de la confluencia entre agroinformática, IoT, grandes datos y extracción del conocimiento

    Get PDF
    La agricultura es fuente de alimentos, de bienes de intercambio a nivel nacional e internacional y de recaudación a través de impuestos para los gobiernos, entre otras cosas. La mejora en el desempeño de este sector requiere de recursos e innovación, de forma de mejorar el acceso a nuevos mercados e incrementar la capacidad productiva. La cadena de producción agrícola es una candidata ideal para la aplicación combinada de tecnologías como Internet de las cosas, grandes datos y extracción del conocimiento, dado que esta contiene diversos procesos que requieren ser controlados y administrados donde contar con información precisa, concisa, oportuna y completa lleva a mejorar la planificación y el proceso de toma de decisiones. En este contexto, el presente trabajo, realiza un compendio del estado del arte de cuatro tópicos principales: Internet de las cosas (IoT), Grandes Datos, Extracción del conocimiento y Agroinformática. Para luego explorar la intersección de ellos con el foco puesto sobre las aplicaciones del agro.Facultad de Informátic

    Análisis multivariado aplicado a la representación de datos sintéticos de secuenciación de ARN

    Get PDF
    Tesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina, 2017.La secuenciación de alto rendimiento de ARN genera grandes bases de datos con información que puede ser utilizada con diferentes objetivos. Una de las aplicaciones más utilizada consiste en resumir las lecturas de las secuencias agregándolas en función de una unidad de interés tal como gen, exón o transcript . En este tipo de análisis se obtienen matrices con datos de conteos correspondientes a cada individuo en estudio (filas) y asignados a una particular unidad de interés (columnas). En general el número de individuos es muy pequeño en relación al número de variables y los conteos presentan un rango de dispersión muy amplio. En esta tesis se comparan técnicas de análisis multivariado exploratorio a 2 y 3 vías de clasificación que contemplan la naturaleza de los datos obtenidos en experimentos de secuenciación de ARN. Utilizando datos sintéticos generados con la técnica de plasmodios se comparan transformaciones a los datos y medidas de disimilaridad empleadas en el análisis de cluster jerárquico, análisis de escalamiento multidimensional métrico y no métrico y en el análisis factorial multiple. La transformación de los conteos originales a través de funciones que utilizan logaritmo o el uso de disimilaridades basadas en correlacion de Spearman o disimilaridad Poisson rescata la estructura natural de las muestras en todos los métodos de análisis utilizados. La mera estandarización o normalización de los conteos no genera representaciones confiables. La elección de la mejor medida debe considerar el nivel de relación señal-ruido ya que no todas las medidas muestran la configuración natural de la muestras en función de la cantidad de transcripts expresados o no diferencialmente. Este aspecto debe considerarse al momento de representar las muestras utilizando todos transcripts obtenidos o filtrando por expresión diferencial.Fil: Reeb, Pablo Daniel. Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina

    Aportaciones al mantenimiento predictivo de motores de inducción mediante una metodología de diagnóstico basada en el uso combinado de técnicas estadísticas y redes neuronales artificiales

    Get PDF
    En esta tesis se desarrolla y valida una metodología de diagnóstico de fallos en motores de inducción mediante el uso combinado de técnicas estadísticas y Redes Neuronales Artificiales. Se utilizó la corriente estatórica como señal indicativa de fallo. La avería considerada fue la rotura de barras, realizándose exhaustivas pruebas en dos motores distintos, con tres variadores de frecuencia diferentes y a niveles de carga del motor que van desde vacio a plena carga. Se emplearon características estadísticas del dominio del tiempo y características del dominio de la frecuencia obtenidas mediante las transformadas de Fourier y Hilbert (módulo de la señal analítica). Para reducir la dimensionalidad de los datos de entrada se empleó un análisis de correlación simple y Análisis Discriminante. Para validar la metodología propuesta se comparo con técnicas de clasificación clásicas como el Análisis Discriminante y la Regresión Logística, comprobándose el mejor rendimiento de la metodología propuesta.Departamento de Ingeniería Energética y Fluidomecánic

    Obtención de reglas de clasificación difusas utilizando técnicas de optimización : Caso de estudio Riesgo Crediticio

    Get PDF
    El aporte central de esta tesis es la definición de un nuevo método capaz de generar un conjunto de reglas de clasificación difusas de fácil interpretación, baja cardinalidad y una buena precisión. Estas características ayudan a identificar y comprender las relaciones presentes en los datos facilitando de esta forma la toma de decisiones. El nuevo método propuesto se denomina FRvarPSO (Fuzzy Rules variable Particle Swarm Oprmization) y combina una red neuronal competitiva con una técnica de optimización basada en cúmulo de partículas de población variable para la obtención de reglas de clasificación difusas, capaces de operar sobre atributos nominales y numéricos. Los antecedentes de las reglas están formados por atributos nominales y/o condiciones difusas. La conformación de estas últimas requiere conocer el grado de pertenencia a los conjuntos difusos que definen a cada variable lingüística. Esta tesis propone tres alternativas distintas para resolver este punto. Uno de los aportes de esta tesis radica en la definición de la función de aptitud o fitness de cada partícula basada en un ”Criterio de Votación” que pondera de manera difusa la participación de las condiciones difusas en la conformación del antecedente. Su valor se obtiene a partir de los grados de pertenencia de los ejemplos que cumplen con la regla y se utiliza para reforzar el movimiento de la partícula en la dirección donde se encuentra el valor más alto. Con la utilización de PSO las partículas compiten entre ellas para encontrar a la mejor regla de la clase seleccionada. La medición se realizó sobre doce bases de datos del repositorio UCI (Machine Learning Repository) y tres casos reales en el área de crédito del Sistema Financiero del Ecuador asociadas al riesgo crediticio considerando un conjunto de variables micro y macroeconómicas. Otro de los aportes de esta tesis fue haber realizado una consideración especial en la morosidad del cliente teniendo en cuenta los días de vencimiento de la cartera otorgada; esto fue posible debido a que se tenía información del cliente en un horizonte de tiempo, una vez que el crédito se había concedido Se verificó que con este análisis las reglas difusas obtenidas a través de FRvarPSO permiten que el oficial de crédito de respuesta al cliente en menor tiempo, y principalmente disminuya el riesgo que representa el otorgamiento de crédito para las instituciones financieras. Lo anterior fue posible, debido a que al aplicar una regla difusa se toma el menor grado de pertenencia promedio de las condiciones difusas que forman el antecedente de la regla, con lo que se tiene una métrica proporcional al riesgo de su aplicación.Tesis en cotutela con la Universitat Rovira i Virgili (URV) (España).Facultad de InformáticaUniversitat Rovira i Virgil

    Análisis de señales de tos para detección temprana de enfermedades respiratorias

    Get PDF
    Antecedentes: La tos es un movimiento sonoro y convulsivo del aparato respiratorio. Hasta ahora, el análisis de la tos como síntoma informativo de la evolución de una enfermedad se limita a herramientas de medición subjetivas, o incómodos monitores de la tos. Otro limitante actual, se debe a que los métodos de procesamiento de audio implementados en dichos monitores no pueden hacer frente a entornos ruidosos, como en el caso en que el dispositivo de adquisición sea un smartphone que el paciente pueda llevar en su bolsillo. Objetivo: El objetivo de este Trabajo de Fin de Grado (TFG) es diseñar diseñar un sistema de “audición máquina” (Machine Hearing) mediante una arquitectura de aprendizaje profundo (Deep Learning) para realizar la detección de tos, así como la detección de enfermedades respiratorias con carácter temprano a partir de señales de audio ruidosas. Métodos: Para realizar el proyecto, se han utilizado señales de audio ruidosas de veinte pacientes con diferentes enfermedades respiratorias, 18433 señales de audio grabadas durante episodios de tos y 18433 señales de audio grabadas durante episodios sin tos. Dichas señales de audio son preprocesadas en tres pasos. Primero, se segmentan las señales de audio originales (señales de tos y no tos) para que todas tengan una duración de un segundo. En segundo lugar, se realiza un espectrograma logarítmico a cada audio para transformar las señales 1D temporales en imágenes (señales 2D) tiempo-frecuencia. Finalmente, se normalizan los datos para poder alimentar a una red neuronal convolucional (Convolutional Neural Network, CNN), que realiza automáticamente la extracción de características en los espectrogramas de los audios para identificar “firmas” espectrales o temporales. De esta forma en primer lugar se detecta si dicho audio contiene una tos o no, y en caso de que la contenga, se pasaría al diagnóstico de la enfermedad respiratoria. Resultados: El sistema de detección de audios con toses tiene una sensibilidad del 85,64% y una especificidad del 92,81 %. Con respecto a la detección temprana de enfermedades respiratorias, se ha alcanzado una tasa de acierto del 77,78% cuando el sistema diagnostica si un paciente tiene tos aguda o enfermedad pulmonar obstructiva crónica (Chronic Obstructive Pulmonary Disease, COPD), superando a los métodos más modernos. Conclusiones: Los resultados de este TFG allanan el camino para crear un dispositivo cómodo y no intrusivo, con una interrupción mínima en las actividades diarias, que pueda detectar con carácter temprano enfermedades respiratorias, beneficiando a pacientes, profesionales sanitarios y sistemas nacionales de salud.Grado en Ingeniería de Tecnologías de Telecomunicació

    La relación entre la calidad de la información contable, la quiebre de las empresas y el desarrollo humano

    Get PDF
    La Tesis investiga sobre dos tópicos de gran interés en la literatura académica, el fracaso empresarial y la manipulación del beneficio, temas de gran impacto en distintas áreas de conocimiento no solo contabilidad y finanzas, sino administración de empresas, ingeniería y administración pública, entre otras. Si hablamos del fracaso empresarial, durante casi cuarenta años se han analizado sus causas, se ha estudiado su impacto y se han planteado diferentes modelos de predicción. Inicialmente estos modelos eran teóricos, les siguieron los modelos estadísticos y en la actualidad predominan los modelos avanzados que incorporan avances de inteligencia artificial. En cuanto a la manipulación del beneficio, no existe un consenso claro sobre su definición, siendo frecuente restringir este término a las prácticas de presentación de informes que están dentro de los límites de los principios de contabilidad generalmente aceptados (Dechow et al., 1996). Entre los trabajos que relacionan quiebra y manipulación del beneficio, Sweeney (1994) encuentra que los gerentes de las empresas quebradas realizaron un mayor número de cambios contables en los años cercanos a la quiebra técnica. En la tesis se estudia si los indicadores diseñados para detectar la manipulación de las cuentas anuales sirven para predecir la quiebra y se pueden integrar en modelos matemáticos de predicción de la misma.Por otro lado, en las empresas de países cuyos mercados de renta variable están más desarrollados, los inversores disfrutan de mayor protección legal, presentando menor evidencia de manipulación del beneficio (Leuz et al., 2003). Hay, por tanto, una relación positiva entre la protección al inversor y la calidad de la información contable (Djankov et al., 2008). También hay una relación positiva entre la calidad de la auditoría y el desarrollo de los mercados financieros (Francis et al., 2003). La tesis pretende ir más allá y estudiar si existe una relación positiva el nivel de desarrollo humano del país y la calidad de la información contable.La Tesis doctoral se estructura en cinco capítulos como se describen a continuación:El Capítulo I – Estudio empírico - Revisión sistemática de la literatura sobre quiebra período 1950-2017.Este capítulo revisa 4,439 trabajos publicados sobre quiebra empresarial desde 1950 a 2017. La revisión de la literatura se apoya en datos: mediante el uso del análisis de co-ocurrencia de palabras clave y redes de citas, que son utilizados para desarrollar los mapas de conocimiento.El capítulo presenta varias contribuciones; la primera de ella es el estudio de la evolución temporal de los diferentes tópicos de interés para los investigadores, así los primeros tópicos de interés estaban enfocados en la estructura financiera de la empresa (Modigliani y Miller, 1958; Jensen y Meckling, 1976; Leland, 1994), la dificultad financiera y sus costes (Gruber y Warner, 1977; Altman, 1984; Weiss, 1990; Rivera Godoy, 2002; Andrade y Kaplan, 1998); y que a través del tiempo tópicos como el endeudamiento empresarial (Jensen, 1986; Moreira Da Silva y Rodríguez, 2006), la elección entre la quiebra formal o la negociación privada de la misma (Gilson, 1990; Bahnson y Bartley, 1992; Altman y Hotchkiss, 2010) y el estudio de la predicción de la quiebra son los tópicos de mayor interés (Beaver, 1966; Altman, 1968; Zavgren, 1983; Aziz y Dar; 2006; Ravi Kumar y Ravi, 2007; Olson et al., 2012; Sun et al., 2014; Tian et al., 2015; Alaka et al., 2017). El capítulo permite identificar los autores más citados, las revistas más influyentes y las tendencias en la investigación reciente, mediante el análisis de las palabras clave.Capítulo II - Estudio empírico: revisión sistemática de la literatura sobre manipulación del beneficio período 1970-2017 Este capítulo revisa 3,485 trabajos publicados sobre manipulación del beneficio desde 1950 a 2017. La revisión de la literatura se apoya en datos: mediante el uso del análisis de co-ocurrencia de palabras clave y redes de citas, que son utilizados para la obtención de mapas de conocimiento. El capítulo presenta varias contribuciones, en primer lugar se han obtenido mapas de conocimiento de la evolución de la investigación en la manipulación del beneficio. El análisis de los datos identifica dos tradiciones de investigación: la discrecionalidad gerencial (i) y las prácticas de manipulación del beneficio (ii). La primera engloba el desempeño del gobierno corporativo y de la gerencia (Myers y Majluf, 1984; Silver, 1967), la discrecionalidad gerencial (Stulz, 1990; Ronen y Yaari, 2008) frente a los incentivos (Healy, 1985; Bergstresser y Philippon, 2006) o frente a los inversionistas (Degeorge, 1999; Jones, 2011), la composición de la junta (Klein, 2002) y su posible relación con el fraude en los estados financieros (Beasley, 1996). La segunda hace referencia a las prácticas de manipulación del beneficio que se relacionan con la calidad del devengo (Dechow y Dichev, 2002), el papel de la auditoría (Becker et al., 1998, Frankel et al, 2002) y de la regulación (Helay y Wahlen, 1999). El capítulo permite identificar los autores más citados, las revistas más influyentes y las tendencias en la investigación reciente, mediante el análisis de las palabras clave. Capítulo III - Indicadores de manipulación del beneficio como predictores de la quiebra empresarial, el caso de las empresas españolas.Este capítulo revisa datos de 179.559 empresas españolas quebradas y no quebradas, utilizando como variables predictoras tanto ratios financieros tradicionales como indicadores de la manipulación del beneficio.El capítulo contribuye a la literatura científica al incluir indicadores de manipulación del beneficio para predecir la quiebra de las empresas. Se han encontrado diferencias entre las empresas quebradas y no quebradas en el índice EM-index en la muestra de empresas analizada, siendo estas diferencias estadísticamente significativas. La principal aportación de este estudio es el diseño de un índice de manipulación del beneficio que hemos denominado EM-index, construido a partir de los ratios de Beneish (1999) y el coeficiente de variación de ventas o beneficio el cual presenta un notable poder discriminante. Su incorporación a los modelos clásicos de predicción de quiebra mejora su capacidad predictiva, lo que constituye la principal aportación del trabajo. Capítulo IV: El uso de indicadores de anomalías contables para predecir la quiebra empresarial, el caso de las empresas europeas.El estudio empírico se ha realizado con una muestra de 56.140 empresas europeas, durante el periodo 2012–2016. El objetivo de este capítulo es utilizar un conjunto de ratios financieros diseñados para detectar anomalías contables, analizando si su inclusión en los modelos de predicción de quiebra mejora la capacidad predictiva de dichos modelos. Se pretende dar robustez a los hallazgos del capítulo anterior, al utilizar una muestra de datos distinta.El aporte de este capítulo es que a partir de los ratios que tratan de identificar anomalías contables se ha diseñado un índice para medir el grado de distorsión en la contabilidad de la empresa. Los resultados confirman que este índice es un buen predictor de la quiebra, con un desempeño comparable a cualquiera de los ratios financieros generalmente utilizados que miden aspectos como la rentabilidad, la liquidez o el endeudamiento. Asimismo, como novedad frente al capítulo anterior se han obtenido reglas para predecir la quiebra utilizando árboles de decisión, concretamente el algoritmo CHAID de Kass (1980), muy empleado debido a su simplicidad, transparencia, capacidad descriptiva y predictiva (Delen et al., 2013).De este capítulo se ha desarrollado un trabajo que ya está aceptado para su publicación: Serrano-Cinca, C., Gutiérrez-Nieto, B., & Bernate-Valbuena, M. (2018). The use of accounting anomalies indicators to predict business failure. European Management Journal. https://doi.org/10.1016/j.emj.2018.10.006 Capítulo V. La relación entre la calidad de la información contable y el nivel de desarrollo de un paísEl objetivo de este capítulo es analizar la relación entre varios indicadores que miden el desarrollo de los países y la calidad de la información contable, medida por el índice de anomalías contables EM-index presentado en capítulos anteriores (Serrano-Cinca et al., 2019). Se espera que las empresas ubicadas en países que presentan un mayor desarrollo, medido según diversos indicadores, presenten los menores valores del indicador EM-index.El estudio presenta varias contribuciones, los indicadores que miden el nivel de desarrollo de un país están muy relacionados entre sí, de forma que un solo componente explica el 48,98% de la varianza de la muestra y dos componentes el 65,05%. Finalmente se ha encontrado que existe una relación positiva el nivel de desarrollo humano del país y la calidad de la información contable, medida por el indicador EM-index. <br /

    Actas de SABI2020

    Get PDF
    Los temas salientes incluyen un marcapasos pulmonar que promete complementar y eventualmente sustituir la conocida ventilación mecánica por presión positiva (intubación), el análisis de la marchaespontánea sin costosos equipamientos, las imágenes infrarrojas y la predicción de la salud cardiovascular en temprana edad por medio de la biomecánica arterial

    El género Profundulus Hubbs, 1924 (Actinopterygii: Profundulidae): sistemática, filogenia y biogeografía

    Full text link
    Tesis Doctoral inédita leída en la Universidad Autónoma de Madrid, Facultad de Ciencias, Departamento de Ecología. Fecha de lectura: 31-05-200
    corecore